AI资讯新闻榜单内容搜索- transform

首篇「Attention Sink」综述：从利用、理解到消除，Transformer中的注意力「汇聚」全景解析

几乎所有 Transformer 都在做一件反常的事：把大量注意力集中到少数几个特定 Token 上。这不是 bug，而是 Transformer 固有的「注意力汇聚」（Attention Sink）。首篇系统性综述，带你从利用、理解到消除，全面掌握这一核心现象。

来自主题: AI技术研报

8457 点击 2026-04-24 09:14

Transformer可以改装成Mamba了：苹果把推理成本直接打成线性

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8114 点击 2026-04-23 14:46

搞懂“记忆”必看｜吃透Engram，坐等Deepseek新模型

第一篇论文来自字节SEED团队，打了一些基础；《Over-Tokenized Transformer》。论文标题看上去在讨论“过度分词”。而重点必然是在第二篇上—— DeepSeek公司的学术成果Engram。《Conditional Memory via Scalable Lookup》也就是Engram模块所出处的论文。

来自主题: AI技术研报

9931 点击 2026-03-31 10:30

全新线性注意力范式！哈工深张正团队提出模长感知线性注意力！显存直降92.3%！

当 Transformer 席卷计算机视觉领域，高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显：标准 Softmax 注意力的二次复杂度，让 70K+token 的超分辨率任务直接显存爆炸，高分辨率图像分割、检测的推理延迟居高不下。

来自主题: AI技术研报

5589 点击 2026-03-17 08:48

Transformer祖制，被Kimi捅破了！谷歌大V高赞：Kimi触碰了十年没人敢碰的禁区！性能炸裂，相当于免费得1.25倍算力，网友：简直天才洞察

就在刚刚，Moonshot AI（月之暗面）发布了一项足以撼动 Transformer 底层的研究：《Attention Residuals》。海外科技大 V，谷歌高级AI产品经理 Shubham Saboo 直接开启了“高赞”模式：“他们触碰了那个十年没人敢碰的部分。”

来自主题: AI技术研报

8932 点击 2026-03-16 17:47

清华联手千问重塑归一化范式，让 Transformer 回归「深度」学习

在十九世纪的暹罗王国曾诞生过这样一对连体兄弟：他们分别拥有完整的四肢和独立的大脑，但他们六十余年的人生被腰部相连着的一段不到十厘米的组织带永远绑定在了一起。他们的连体曾带来无尽的束缚，直到他们离开暹罗，走上马戏团的舞台。十年间，两兄弟以近乎合二为一的默契巡演欧美，获得巨大成功。

来自主题: AI技术研报

6079 点击 2026-02-11 13:59

速递｜从LLM到LTM：Fundamental以“数据基础模型”切入，A轮融资2.55亿美元

大规模表格模型（LTM）而非大规模语言模型（LLM）的 Fundamental 公司 Nexus 模型，在多个重要方面突破了当代人工智能实践。该模型具有确定性——即每次被询问相同问题时都会给出相同答案——且不依赖定义当代大多数人工智能实验室模型的 Transformer 架构。

来自主题: AI资讯

9989 点击 2026-02-09 11:22

大模型哪里出问题、怎么修，这篇可解释性综述一次讲清

过去几年，机制可解释性（Mechanistic Interpretability）让研究者得以在 Transformer 这一 “黑盒” 里追踪信息如何流动、表征如何形成：从单个神经元到注意力头，再到跨层电路。但在很多场景里，研究者真正关心的不只是 “模型为什么这么答”，还包括 “能不能更稳、更准、更省，更安全”。

来自主题: AI技术研报

10778 点击 2026-01-28 10:13

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

编辑｜Panda 在文生图模型的技术版图中，VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX，再到一系列扩散 Transformer，主流路线高度一致：先用 VAE 压缩视

来自主题: AI技术研报

7543 点击 2026-01-24 10:52

清华姚班校友刘壮团队再发力，无需归一化的Transformer性能进化

这篇新论文提出了一种非常简单的新激活层 Derf（Dynamic erf），让「无归一化（Normalization-Free）」的 Transformer 不仅能稳定训练，还在多个设置下性能超过了带 LayerNorm 的标准 Transformer。

来自主题: AI技术研报

8243 点击 2026-01-24 10:38